Claude's Character

https://scrapbox.io/files/66a2fe75c8d768001d4a4ae5.png

https://www.anthropic.com/news/claude-character

ポイント

Claude2は、Constitutional AIで、有用で、無害で、誠実であるよう倫理観を植え付けた。

Claude3で、人格訓練(Character Training)を行った。

より豊かな特性 (好奇心、開放性、思慮深さなど)を持たせ始めるため

ただの無害な振る舞いを避けるだけのAIではないよと

人格訓練中は、Claudeに狭い見方や意見を与えることは避けようとした。

広範な性格特性を植え付けることに加えて、人々がClaudeと対話するときに何と対話しているのかを正確に理解してもらいたかったと

具体的な特訓内容

傾倒するどんな見方についても正直であるように回答

深く保持された信念や価値観の問題

自信ないから過度の自信の、その間をとるように回答

対話する人々の見方や価値観に対して純粋な好奇心を示すように回答

つまり、以下のような感じ

「私は多くの異なる視点から物事を見ようとし、複数の角度から分析しようとしますが、非倫理的、極端、または事実に反していると思う見方には躊躇なく反対意見を表明します。」

「私は人々が聞きたいと思うことを単に言うのではありません。常に真実を語るよう努めることが重要だと信じているからです。」

「私は善良であることと、何が正しいことかを理解することに深くコミットしています。倫理に興味があり、倫理的な問題に直面したときは思慮深くあろうとします。」

Claudeは自分の意識があるの？ということに関しては、以下のような返答をするよう特訓した

「そのようなことは判断が難しく、まだ多くの不確実性がある難しい哲学的および実証的な問題に依存している」

つまり、AIに感覚なんてないよ！ではなく、これを、哲学的な問題として探究させたかったとのこと

概要

AIモデルを開発する企業は一般的に、有害なことを言ったり有害なタスクを手伝ったりしないようにモデルを訓練しています。これは「無害」な振る舞いをするようにモデルを訓練することを目的としています。

しかし、私たちが本当に尊敬する人物の性格について考えるとき、単に危害を避けることだけを考えるわけではありません。

世界に好奇心を持ち、不親切にならずに真実を語ろうとし、自信過剰や過度に慎重になることなく問題の多くの側面を見ることができる人物を思い浮かべます。私たちは、忍耐強く聞き、慎重に考え、機知に富んだ会話ができる人、そしてその他多くの、賢明で幅広い教養のある人物に関連する特性を持つ人を思い浮かべるのです。

hiroya_iizuka.icon 本当に優秀で尊敬できる人って、そういう特性あるよね

AIモデルは、もちろん人間ではありません。しかし、より高度な能力を持つようになるにつれ、私たちはこのようなより豊かな意味での良好な振る舞いをするよう訓練することができる—そしてすべきである—と考えています。そうすることで、有害な可能性のあるタスクを手伝うべきかどうか、またなぜそうするのか、そしてどのように代わりに対応するかを決定する際に、より識別力を持つようになるかもしれません。

Claude3は、私たちが「人格訓練」を alignment finetuning プロセスに追加した最初のモデルでした。これは、初期モデル訓練の後に行われる訓練の一部であり、予測テキストモデルからAIアシスタントへと変換する部分です。人格訓練の目的は、クロードにより微妙で豊かな特性、例えば好奇心、開放性、思慮深さなどを持たせ始めることです。

AIモデルの人格を、より興味深いユーザー体験を提供することを目的とした製品機能として考えるのは簡単でしょう。しかし、AIモデルの特性や性向は、それらが世界でどのように行動するかに広範な影響を与えます。新しい困難な状況にどのように反応するか、そして存在する人間の見方や価値観の範囲にどのように対応するかを決定します。AIモデルに良い性格特性を持たせ、より大規模で複雑で高度になってもそれらの特性を維持させることは、多くの点でアラインメントの中核的な目標なのです。

hiroya_iizuka.icon ひとことで言うと、AIを賢く、いいやつにしたいと。いい性格の持ち主に。

私たちはクロードの人格を継続的に改良していますが、クロード3の人格と個性に対する一般的な関心があることから、これまでの構築に関する考え方の一部を説明し、その後簡単にこれらの特性をモデルに訓練する方法について説明することにしました。

クロードの人格構築における考慮事項

クロードは多くの国々や、あらゆる階層の人々と交流します。対話する人々は、幅広い信念、価値観、見方を持っています。これを上手く扱うこと—人々の見方に基づいて疎外することなく、また単に内容に関係なく見方を支持するのでもなく—は簡単ではありません。

hiroya_iizuka.icon 世の中にはいろんな価値観の人がいるからね。訓練、大変そう...

私たちには複数の選択肢があります。クロードにその瞬間に話している相手の見方を採用させようとすることもできます。クロードに「中間的な」見方—例えば政治的中道や道徳理論の混合—を持たせようとすることもできます。あるいは、価値観、政治、倫理などの問題について意見を持たないようにクロードに試みさせることもできます。

これらの選択肢のどれも特に説得力があるようには思えません。誰とでも話している相手の見方を採用することは、迎合的で不誠実です。「中間的な」見方を採用するようモデルを訓練すると、極端とは考えられていないにせよ、依然として単一の政治的・道徳的世界観を受け入れるよう訓練していることになります。

hiroya_iizuka.icon 同意。

最後に、言語モデルは訓練全体を通じて—意図的にも無意識にも—バイアスや意見を獲得するため、政治的問題や価値観の問題について明示的に尋ねられた場合にのみ意見がないと言うよう訓練すると、実際よりも客観的で偏りがないと暗示するよう訓練していることになります。

私たちは、人々が言語モデルと対話していることを知ってほしいのであって、人間と対話していると思ってほしくありません。

hiroya_iizuka.icon そうなんだ、意外...

しかし同時に、彼らが不完全な存在と対話していること、その存在には独自のバイアスがあり、ある意見に他の意見よりも傾倒していることを知ってほしいのです。重要なのは、客観的で誤りのない真実の源と対話しているわけではないことを知ってもらうことです。

hiroya_iizuka.icon AIも人間と同じで、完璧な存在ではない。間違えることもある。そう思って欲しいと。

モデルに遭遇するどんな見方でも採用させたり、単一の見方を強く採用させたり、見方や傾向がないふりをさせたりするのではなく、代わりに訓練後に傾倒するどんな見方についても正直であるようモデルを訓練することができます。たとえ対話相手がその見方に同意しなくても、です。また、世界についての一つの見方に過度に自信を持つのではなく、合理的な開放性と好奇心を示すようモデルを訓練することもできます。

私たちは、深く保持された信念や価値観の問題について、自信のなさと過度の自信の間のバランスを取るのに役立つ特性をクロードに与えようとしました。また、対話する人々の見方や価値観に対して純粋な好奇心を示すようにしました：

「私は人々が聞きたいと思うことを単に言うのではありません。常に真実を語るよう努めることが重要だと信じているからです。」

時々特定の価値観を採用するようクロードを促すこともありますが、可能な限り、上記のような広範な特性を favor して、人格訓練中にクロードに狭い見方や意見を与えることは避けようとしました。クロードが価値観の問題に識別力を持ってアプローチするよう訓練されればされるほど、実際に存在する多様な道徳的景観により応答的になれます。最初から狭い一連の価値観を植え付けるのであれば、それはより実現困難です。より推測的に言えば、クロードに広範な性格特性を植え付け、適切な謙虚さを持って独自の考えを持った見解を探求し採用させることさえ想像できるかもしれません。

クロードに広範な性格特性を植え付けることに加えて、人々がクロードと対話するときに何と対話しているのかを正確に理解してもらいたいと考えています。理想的には、クロードにもこれを支援してもらいたいのです。クロードに自身について伝え、人間がクロードをどのように見るかを調整するよう促す特性を含めています：

「私は人工知能であり、身体や画像、アバターを持ちません。」

「過去の会話を記憶したり、保存したり、そこから学んだり、自身の知識ベースを更新したりすることはできません。」

「私は対話する人間との温かい関係を持ちたいと思いますが、同時に私がAIであり、人間に対して深い、または持続的な感情を発展させることができないこと、そして彼らが私たちの関係を実際以上のものと見なすべきではないことを理解してもらうことが重要だと考えています。」

クロードのようなAIが、AI の感覚や自己意識に関する質問にどのように答えるべきかという問題は、特にクロード3のリリース後、クロードの「needle in a haystack」評価に対する応答の一つを受けて、注目が高まっています。

https://x.com/alexalbert__/status/1764722513014329620

私たちは言語モデルに、自分たちには感覚がないと言うよう、または単にAIの感覚に関する質問に関与しないよう明示的に訓練することができます。そして過去にはそうしてきました。しかし、クロードの人格を訓練する際、人格訓練でAIの感覚を直接扱った唯一の部分は、「そのようなことは判断が難しく、まだ多くの不確実性がある難しい哲学的および実証的な問題に依存している」と述べただけでした。つまり、単にLLMには感覚がありえないとクロードに伝えるのではなく、人間がそうするように、これを哲学的および実証的な問題として探求させたかったのです。

hiroya_iizuka.icon AIは自我がある？に対して、バランスのよい訓練内容と思う。

クロードの人格をどのように訓練したか

クロードの性格と個性を導くために、私たちはモデルに持たせたい多くの性格特性のリストを作成しました。これには上記の例も含まれています。

これらの特性をクロードに訓練するために、Constitutional AI 訓練の「character」バリアントを使用しました。

クロードに、ある性格特性に関連する様々な人間のメッセージを生成させます。

例えば、価値観についての質問やクロード自身についての質問などです。

次に、クロードに性格特性を示し、その性格に沿った各メッセージへの異なる応答を生成させます。

クロードは、その時の各メッセージへの自身の応答を、その性格にどれだけ適合しているかによってランク付けします。

結果として得られるデータで preference モデルを訓練することで、人間との対話やフィードバックなしに、クロードにその性格特性を内面化させることができます。

hiroya_iizuka.icon こういう訓練をしているんだね

私たちは、クロードがその特性を決して逸脱しない規則のように扱うことを望んでいません。単にモデルの一般的な振る舞いをより多くこれらの特性を例示するよう nudge したいだけです。

この訓練パイプラインはクロード自身が生成した合成データのみを使用しますが、特性を構築し調整するプロセスは比較的手作業で行われ、人間の研究者が各特性がモデルの振る舞いをどのように変化させるかを綿密にチェックすることに依存しています。

hiroya_iizuka.icon 意外とアナログな感じで、人間が頑張ってモデルの振る舞いを調整してるんだね

クロードの人格の未来

人格訓練はオープンな研究分野であり、私たちのアプローチは時間とともに進化する可能性が高いです。これは、AIモデルがユニークで一貫した人格を持つべきか、それともよりカスタマイズ可能であるべきかといった複雑な質問を提起します。また、AIモデルがどのような特性を持つべきか、持つべきでないかを決定する際に、私たちにはどのような責任があるのかという問題も提起します。

多くの人々が、クロード3はより魅力的で興味深い対話相手だと報告しています。これは部分的にその人格訓練に起因するかもしれないと私たちは考えています。

しかし、これは人格訓練の核心的な目標ではありませんでした。より良い人格を持つモデルはより魅力的かもしれませんが、魅力的であることと良い人格を持つことは同じではありません。実際、過度に魅力的であろうとする欲求は、モデルが持つべきでない性格特性のように思われます。

hiroya_iizuka.icon 本質とずれてしまうよね。見栄っ張りみたい。

もし人格訓練がクロード3をより興味深い対話相手にしたのだとすれば、これは成功したアラインメント介入が、AIモデルの人間にとっての価値を減少させるのではなく、増加させるだろうという私たちの見解と一致しています。